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摘要 : 【 目的 ] 对 如 何 从 中 文 非 结 构 化 文本 获取 术语 的 层次 关系 进行 探讨 。[ 方法 】 从 CNKI 获取 数字 图 书馆 学 
科 领 域 文献 , 通过 术语 抽取 、 术 语 向 量 空间 模型 构建 、BIRCH 算法 聚 类 和 聚 类 标签 确定 构建 术语 的 语义 层次 结 
构 。[ 结果 ] 构建 数字 图 书馆 领域 术语 的 层次 结构 ， 并 对 构建 结果 进行 验证 , 聚 类 正确 率 达 到 80.88%， 类 标签 抽 
取 正 确 率 达到 89.71%。[ 局 限 ] 对 构建 效果 的 验证 是 通过 随机 抽样 进行 的 ， 且 仅 与 一 种 其 他 构建 方法 进行 实证 比 
较 。[ 结论 ] 应 用 BIRCH 算法 聚 类 构建 术语 层次 结构 , 该 方法 与 K-means 聚 类 方法 相 比 具 有 明显 优势 ,具备 较 高 


的 执行 效率 和 聚 类 有 效 性 。 
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领域 术语 层次 关系 是 领域 知识 本 体 的 重要 组 成 部 
分 , 它 将 领域 术语 分 类 别 按 层次 进行 组 织 , 为 领域 知 
识 的 搜索 、 重 用 及 进一步 理解 提供 条 件 。 甚 至 有 研究 
认为 本 体 就 是 具有 包含 关系 的 概念 之 间 的 一 种 层次 结 
构 02。 人 工 构建 术语 层次 结构 耗 时 耗 力 ,上 且 受 到 领域 
专家 背景 知识 的 限制 , 缺少 客观 性 和 一 致 性 ， 因 此 借 
助 知识 自动 获取 方法 和 技术 构建 术语 层次 结构 便 成 为 
一 个 新 的 研究 方向 。 目 前 , 常用 的 获取 术语 层次 关系 
的 方法 之 一 是 基于 Harris 假设 的 方法 中 。 该 假设 的 具 
体内 容 是 : 阁 两 个 术语 的 上 下 文 语 境 相似 ， 则 这 两 个 
术语 也 是 相似 的 外 ,已 有 学 者 对 该 假设 进行 了 验证 , 并 
证 明 是 有 效 的 钙 , 基 于 Harris 假设 , 可 以 引入 聚 类 方法 
构建 术语 层次 结构 。 

本 文 试图 在 建立 术语 向 量 空间 模型 的 基础 上 , 将 
BIRCH 算法 和 术语 共 现 理论 引入 到 领域 本 体 的 术语 
层次 关系 构建 中 , 并 通过 对 术语 向 量 空间 模型 的 优化 
改进 聚 类 结果 , 由 此 形成 一 种 从 中 文 非 结构 化 文本 构 
建 领域 术语 层次 关系 的 具体 方法 。BIRCH 算法 是 针对 


m 


大 数据 的 一 种 聚 类 方法 ,已 有 学 者 将 其 应 用 在 文本 聚 
类 、 大 规模 网 络 数据 聚 类 等 方面 , 但 还 没 发 现 应 用 在 
术语 层次 构建 中 , 因此， 本 文 尝试 引入 该 算法 构建 术 
语 的 层次 结构 ， 并 与 其 他 聚 类 方法 进行 比较 分 析 。 


2 相关 研究 


内 外 已 有 学 者 对 基于 非 结构 化 文本 如 何 获取 术 
语 层次 关系 进行 了 相关 研究 。 

Sun 等 四 集成 语义 分 析 和 数学 统计 方法 ， 提 出 一 
种 监督 学 习 方 法 获得 术语 以 及 术语 的 层次 关系 。Hu 
等 中 探讨 如 何 运 用 机 器 学 习 方 法 (SVMs 和 CRFs) 将 网 
络 百科 全 书 中 结构 化 的 知识 转化 成 本 体形 式 。Colace 
等 四 提出 一 个 融合 了 语义 分 析 、 数 学 统计 等 方法 的 本 
体 学 习 系 统 。 Meijer 等 中 利用 词性 标注 器 从 语 料 中 抽取 
术语 ,利用 相关 过 滤 方 法 获得 领域 相关 度 较 高 的 术语 ， 
并 对 术语 进行 词义 消 上 于 ,最 后 基于 术语 共 现 关系 利用 
归 类 技术 获得 术语 的 层次 关系 。De Knij 企 等 ("利用 语法 
分 析 器 从 文本 语 料 中 抽取 术语 , 采用 归 类 和 层次 聚 类 
两 种 方法 获得 概念 的 层次 关系 。Rios-Alvarado 等 所 针对 


通讯 作者 : RE, ORCID: 0000-0002-2357-1506, E-mail: zhuhui@nju.edu.cn。 
# 本 文系 江苏 省 自然 科学 基金 项 目 “ 面 向 专利 预警 的 中 文本 体 学 习 研 究 ”( 项 目 编号 :BK20130587) 和 中 央 高 校 基本 科研 业务 费 专 项 
资金 项 目 “ 我 国 图 书 情 报 学 科 知 识 结构 及 演化 动态 研究 (项 目 编号 :20620140645) 的 研究 成 果 之 一 。 


XIANDAI TUSHU QINGBAO JISHU 


上 


具体 领域 的 文本 语 料 利用 聚 类 分 析 、 语 言 模式 以 及 上 
下 文 信息 构建 了 术语 的 层次 结构 。 

季 培 培 等 号 采用 多 重 聚 类 方法 获取 术语 的 层次 关 
系 。 林 源 等 上 5 利用 基于 规则 与 统计 相 结 合 的 方法 提取 
领域 术语 , 并 插入 到 由 ODP 构建 的 树 中 得 到 领域 术语 
的 层次 关系 。 茧 成 等 请] 提出 利用 确定 性 退火 的 多 重 聚 
类 算法 获取 术语 层次 关系 的 流程 。 谷 俊 等 上 提出 利用 
蚁 群 聚 类 算法 对 中 文 术 语 进 行 预 聚 类 ， 再 利用 
K-means 聚 类 算法 对 预 聚 类 结果 进行 聚 类 获得 术语 的 
层次 关系 。 韩 红旗 等 六 提出 基于 词 形 规则 模板 匹配 的 
术语 层次 关系 抽取 方法 , 实现 从 科技 论文 文本 中 抽取 
类 属 关 系 和 整体 部 分 关系 。 涂 易 等 2 使 用 主题 模型 对 
评论 集 进 行 描述 选 出 最 具 代表 性 的 主题 词 作为 候选 术 
语 , 进而 利用 WordNet 提取 术语 间 语 义 关联 ， 最 终 通 
过 多 路 聚 类 获得 术语 层次 关系 。 李 树 青 呈 提出 一 种 利 
用 引文 关键 词 共 现 技术 自动 构建 图 情 学 科 领 域 术语 层 
次 语义 关系 的 方法 。 

由 上 述 内 容 可 知 , 国内 外 学 者 尝试 采用 多 种 知识 
自动 获取 方法 和 技术 构建 术语 层次 结构 ,其 中 ,， 聚 类 方 
法 运用 较 多 , 主要 有 K-mean 聚 类 、 层 次 聚 类 、 蚁 群 聚 
类 、 基 于 确定 性 退火 的 聚 类 等 ,而 且 通 常 是 多 种 聚 类 方 
法 结合 或 同一 聚 类 方法 多 重 使 用 才能 达到 较 好 的 效果 。 
但 这 些 聚 类 方法 存在 以 下 主要 缺陷 : 不 适合 大 型 数据 
的 聚 类 ,例如 层次 聚 类 , 由 于 占用 内 存 较 大 导致 在 大 数 
据 上 执行 效率 较 低 ; 不 能 自动 确定 聚 类 数目 , 例如 
K-means 聚 类 ， 需 要 人 工 指定 聚 类 数目 ; 离 群 点 和 噪声 
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间 的 变化 对 术语 层次 结构 的 影响 , 这 里 的 非 结 构 化 文 
本 由 期 刊 论文 的 标题 、 摘 要 和 关键 词 构 成 。 
3.1 术语 抽取 

科研 人 员 是 学 科 领 域 术语 动态 变化 过 程 的 直接 参 
与 者 和 见证 者 ,他 们 撰写 的 科研 文献 记载 了 7 学科 的 动 
态 发 展 过 程 , 文献 的 关键 词 则 是 学 科研 究 内 容 的 凝练 ， 
因此 ,可 以 从 科研 文献 的 关键 词 中 抽取 领域 术语 。 

但 文献 作者 给 出 的 关键 词 具有 较 大 的 随意 性 、 不 
一 致 性 以 及 误差 性 , 因此 ,有 必要 对 这 些 候选 术语 进 
行 统一 规范 , 以 符合 同一 概念 的 术语 唯一 化 。 

领域 术语 是 专业 词汇 必须 具有 一 定 的 领域 认可 
E, K, 本 文采 用 关键 词 在 所 有 文档 中 出 现 的 频数 
Je 作为 筛选 条 件 ， 即 知 : 

NEC (1) 

则 认为 该 关键 词 被 领域 普遍 认可 ,可 作为 该 领域 
的 术语 ,其 中 C 为 词 频 阔 值 。 

32 ”术语 向 量 空间 模型 构建 

以 文档 为 特征 项 描述 术语 形成 术语 向 量 空间 模 
型 ,是 后 续 对 术语 进行 聚 类 的 数据 基础 。 以 术语 集 为 
词典 ， 借助 中 文 分 词 工具 NLPIR 获得 文档 和 术语 间 的 
语义 关联 "95, 构建 文档 术语 频数 矩阵， 再 进行 TF-IDF 
特征 项 权重 计算 ， 得 到 术语 文档 权重 和 矩阵。 

在 术语 文档 向 量 空间 模型 中 , d BEARES TREES ZUG 
程度 是 依赖 术语 在 文档 中 的 共 现 。 在 较 短 的 非 结构 化 
文档 中 ,由 于 术语 量 较 少 ,导致 术语 的 共 现 关系 较 少 ， 
术语 文档 矩阵 较 稀 鸣 。 而 从 较 稀 蚊 的 矩阵 中 挖掘 术语 


数据 对 聚 类 结果 产生 直接 影响 , 这 可 能 导致 局 部 聚 类 
效果 较 优 , 但 无 法 得 到 较为 均匀 的 聚 类 结果 。 

本 文 首 先 利用 BIRCH 算 法 进行 预 聚 类 ,进而 对 预 
聚 类 结果 进行 层次 聚 类 ,这 样 能 避免 上 述 聚 类 缺陷 。 
BIRCH 算法 由 Zhang 等 (于 1997 年 提出 , 采用 聚 类 
村 征 树 存储 数据 ,能 诊断 离 群 点 和 噪声 数据 、 有 效 解 
决 大 数据 集 的 聚 类 问题 、 利 用 贝 叶 斯 信息 准则 以 及 类 
合并 过 程 中 类 间 差 异性 最 小 值 变化 的 相对 指标 确定 最 
优 的 聚 类 数目 。 


3 ”基于 BIRCH 到 类 的 术语 层次 关系 获取 
方法 
本 节 重 点 探讨 基于 BIRCH 聚 类 从 非 结构 化 文本 
获取 术语 层次 关系 的 方法 和 过 程 ， 并 分析 术语 向 量 空 
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的 层次 关系 , 效果 可 能 不 尽 理想 。 那 么 如 何 增加 术语 
的 共 现 关系 ,以 使 得 相应 矩阵 中 的 数据 更 稠密 呢 ? 
在 术语 文档 向 量 空间 模型 中 , 文档 是 术语 共 现 的 
中 介 , ARNE T1、T2 均 与 文档 Di 关联 , 则 术语 TI 与 
术语 T2 共 现 。 而 文档 是 由 许多 词汇 构成 的 , 因此 , 也 
可 认为 T1 与 文档 Di 的 所 有 wi 个 词汇 产生 关联 ， 由 此 ， 
原来 的 一 个 术语 文档 关联 扩展 成 wi 个 术语 词汇 关联 。 
同样 ，T2 也 与 文档 Di 的 所 有 wi 个 词汇 产生 关联 ， 则 
T1 与 T2 以 词汇 为 中 介 产 生 了 共 现 关系 。 中 介 转 变 后 ， 
术语 的 共 现 关系 将 会 发 生 明 显 的 变化 : 原本 具备 共 现 
关系 的 术语 ,它们 的 共 现 关系 将 保持 且 共 现 频数 会 增 
加 ; 原本 不 具备 共 现 关 系 的 术语 , 若 各 自 关联 的 文档 拥 
有 相同 的 词汇 , 则 会 产生 关联 ,从 而 具备 共 现 关系 P。 
利用 NLPIR 以 术语 集 为 用 户 词典 对 非 结 构 化 文 


档 进行 分 词 , 选取 其 中 的 名 词 词汇 并 去 除 停 用 词 和 
低频 词 , 得 到 所 需 词 汇 。 术 语 通过 与 其 关联 的 文档 找 
到 与 其 关联 的 词汇 ， 获 得 术语 词汇 关联 , 由 此 产生 < 术 
iB, 词汇 ,， 共 现 频数 > 三 元 组 关系 , 进一步 ， 笔 者 引入 
Ochiia 系数 度量 术语 与 词汇 之 间 关联 关系 的 强 弱 , JÉ 
成 < 术语 , 词汇 , 关联 系数 > 三 元 组 关系 , 构建 术语 词 


汇 权重 矩阵 。 
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3.3 ”两 步 聚 类 

基于 术语 向 量 空间 模型 ， 采 用 两 步 聚 类 法 进行 聚 
类 : 利用 BIRCH 算法 进行 预 聚 类 ， 获 得 较为 “粗糙 ”的 
聚 类 结果 , 在 此 基础 上 利用 层次 聚 类 获得 术语 的 层次 
结构 。 在 聚 类 过 程 中 ,对 于 不 满足 聚 类 结束 条 件 的 类 
别 均 要 再 次 进行 两 步 聚 类 ， 因 此 整个 聚 类 过 程 是 一 个 
多 重 两 步 聚 类 ,如 图 1 所 示 : 


判断 是 否 满足 | E 
聚 类 条 件 


图 1 领域 术语 层次 关系 获取 方法 及 流程 


BIRCH 算法 涉及 到 两 个 主要 概念 : 聚 类 特征 
CF(Clustering Feature) PURPEN] CF tree; CF tree 
中 的 节点 j 就 是 类 j, 记 为 CF;, 包含 三 个 部 分 : 
CF, = {N Sap Si 其 中 Nj 为 节点 所 包含 的 术语 个 
数 ，SAi 为 Nj; 个 术语 的 线性 和 ，SA 为 Nj 个 术语 的 平 
方 和 。 

例如 , 假设 节点 CF; 中 有 三 个 数据 : (1,2)、(3,4)、 
(5,6), 则 CF,— (3, (1-345, 24446), (I3745?, 2+4- 
61-13, (9,12), (35,56)! 。 

对 于 由 第 j 类 和 第 s 类 合并 形成 的 新 的 <j, s> 类 : 


CE 


={Nj+Ns,SAj+SAs， SAj + SA (2) 


«js» 


BIRCH 算法 的 具体 过 程 如 下 : 

GD 视 所 有 术语 为 一 个 大 类 ,计算 CF, 创建 根 节点 

@) 读 入 一 个 术语 ， 从 根 节 点 开始 ， 计 算 该 术语 与 中 间 
节点 ( 子 类 ) 的 对 数 似 然 距 离 , 并 沿 着 对 数 似 然 距 离 
最 小 的 中 间 节 点 依次 向 下 选择 路 径直 到 叶 节 点 ; 

@ 计 算术 语 与 子 树 中 所 有 叶 节 点 的 距离 ,判断 最 小 距 
离 是 否 小 于 阅 值 
zt, 则 术语 被 吸收 ,判断 新 插入 术语 的 叶 节 点 是 否 

包含 足够 多 的 术语 


Æ, IA JA 节点 ， 该 节点 变 成 中 间 节 点 ， 重 


新 计算 叶 点 的 CF 
T, WA 2133 7 点 
否 ， 则 开辟 新 的 叶 节 点 ， 重 新 计算 叶 节 点 和 所 有 父 
节点 的 CF 


@ 判 断 叶 节点 的 数目 是 否 达 到 最 大 聚 类 数目 
Æ, 判断 术语 是 否 全 部 被 处 理 
结束 聚 类 
否 , 适当 增加 聚 类 阔 值 重新 构建 较 小 的 CF tree 
否 , 判断 术语 是 否 全 部 被 处 理 
XQ HORA 
T, 继续 dit NN 
两 步 聚 类 法 在 第 二 步 层 次 聚 
段 自动 确定 聚 类 数目 。 
(1) 第 一 阶段 ， 以 贝 叶 斯 信息 准则 (Bayesian 
Information Criterion, BIC) 作 为 判定 标准 。 


假设 聚 类 数目 为 上 MWA: 


过 程 中 通过 两 个 阶 


J 
BIC(J) = 2$ 8; +m; log N (3) 
j=1 
Kg 
m, =JCKA+》 (Lg - D) (4) 
k=1 


贝 叶 斯 信息 准则 的 第 一 项 即 公式 (3) 反 映 的 是 了 类 
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对 数 似 然 总 和 , 是 类 内 差异 性 的 总 度量 ,第 二 项 即 公 
式 (4) 是 一 个 模型 复杂 度 的 惩罚 项 ， 当 数据 确定 后 ,了 越 
大 该 项 值 越 大 。 

若 所 有 样本 数据 合并 成 一 个 大 类 ， 此 时 公式 (3) 值 
最 大 , 公式 (4) 值 最 小 。 当 预 聚 类 数目 增加 时 ,公式 (3) 
值 减少 , 公式 (4) 值 增 大 ,通常 增 大 幅度 小 于 减少 幅度 ， 
因此 总 值 减少 ; 当 预 聚 类 数目 增加 到 J 时 , 公式 (3) 值 
增 大 幅度 开始 大 于 减少 幅度 ， 总 值 开 始 增 大 ， 此 时 的 J 
为 聚 类 数目 的 “粗略 ”估计 值 。 

(2) 第 二 阶段 ， 对 第 一 阶段 的 “粗略 ”估计 值 IJ 作 修 
正 。 用 到 的 指标 是 : 


duis (Cj) 
R, (J) 2 —Hmn— — 5 
a dimin (CJ+1) S 


HP, das (Cj) 为 聚 类 数目 为 了 时 , 两 两 类 间 对 
数 似 然 距 离 的 最 小 值 。R,(J) 反映 层次 聚 类 的 类 合并 
过 程 中 , 类 间 差 异性 最 小 值 的 变化 , 值 越 大 表明 二 1 
类 合并 到 J 类 越 不 恰当 。 可 依次 计算 R,(J-1) 、 
R,(J-2) 到 R,(2) 的 值 ,找到 其 中 的 最 大 值 和 次 大 值 ， 
如 果 最 大 值 是 次 大 值 的 1.15 WUE, 则 最 大 值 所 对 应 
的 J 为 最 终 聚 类 数目 ， 和 否则 ， 最 终 聚 类 数目 J 为 最 大 值 
对 应 的 聚 类 数目 和 次 大 值 对 应 聚 类 数目 中 的 较 大 值 。 
3.4 ”类 标签 的 确定 

领域 术语 层次 结构 的 建立 过 程 也 伴随 着 类 标签 的 
确定 。 本 文 针对 术语 层次 关系 中 各 层次 的 各 类 别 , 计 
算 类 中 各 术语 的 综合 语义 相似 度 , 把 拥有 最 大 综合 语 
义 相似 度 的 术语 提取 出 来 作为 类 标签 中 1。 

假设 术语 TW Wi =s Wim, 术语 T=(wj, 
wi s Wim) JUI 开 与 了 的 语义 相似 度 定 义 为 : 


m 
X wk "UN 


= © 


: 2 c 2 
È wik Zwi 
k=I k=1 


术语 的 综合 语义 相似 度 是 指 该 术语 与 类 中 其 他 所 
有 术语 语义 相似 度 之 和 ,假设 类 中 包含 术语 Ti, T», tuts 
Ti, s Ta， 则 术语 Ti 的 综合 语义 相似 度 为 : 


Sim(T,T)= 


卫 
SumSim(T)- J, Sim(T,T;) (7) 
j=1,j#i 


若 术 语 具 有 最 大 综合 语义 相似 度 ,可 认为 该 术语 
在 当前 类 中 代表 了 最 宽泛 的 语义 内 容 , 能 作为 该 类 的 
标签 。 
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4 实验 结果 及 分 析 


本 文 以 数字 图 书馆 学 科 领 域 的 期 刊 论文 作为 分 析 
对 象 , 基于 术语 词汇 语义 关联 进行 聚 类 , 并 对 构建 的 
术语 层次 关系 进行 有 效 性 验证 。 

4.1 数据 预 处理 

以 “数字 图 书馆 ”为 主题 词 , 在 CNKI 中 国 期 刊 全 
文 数据 库 的 核心 期 刊 范围 内 检索 1996 年 -2011 年 期 间 
发 表 的 论文 , 共计 7 746 篇 ,抽取 标题 、 摘 要 和 关键 词 
构成 非 结 构 化 文档 。 通 过 术语 抽取 最 终 获得 911 个 术 
W, 以 这 些 术 语 为 用 户 词典 进行 NLPIR 分 词 ， 共 得 到 
50 992 个 术语 文档 关联 。 若 以 词汇 作为 术语 的 共 现 中 
fr, 通过 分 词 和 过 滤 共 获得 2 168 个 词汇 和 105 477 个 
术语 词汇 语义 关联 。 从 数据 上 可 以 发 现 术 语词 汇 语义 
关联 数 明 显 大 于 术语 文档 语义 关联 数 ,语义 关联 增强 ， 
所 构建 的 向 量 空间 也 更 稠密 。 

42 ” 聚 类 数目 的 确定 

本 文采 用 的 两 步 聚 类 法 可 自动 确定 聚 类 数目 。 设 
定 如 下 方案 : 领域 专家 确定 各 层 聚 类 数目 的 取 值 范 
围 ， 再 由 两 步 聚 类 法 在 此 范围 内 自动 选 出 最 佳 的 聚 
类 数目 。 

假设 : n 表示 类 中 的 术语 数 ; MaxNum 表示 不 允许 
聚 类 的 最 大 术语 数 ， 即 若 类 中 术语 数 小 于 等 于 该 值 ， 
则 停止 聚 类 ,否则 继续 ; CeilCO 表 示 大 于 等 于 X 的 最 
小 整数 。 笔 者 根据 领域 特点 对 各 层次 聚 类 数目 范围 的 
设 定 如 下 : 第 一 层次 聚 类 数目 范围 为 10-15; 第 二 层次 
聚 类 数目 范围 为 5-10; 其 后 各 层次 的 聚 类 数目 范围 与 
类 中 包含 的 术语 数目 有 关 : 车 术语 数目 大 于 等 于 
5xMaxNum， 则 聚 类 数目 范围 为 5-Ceil(n/MaxNum), 
否则 为 Ceil(n/MaxNum)-5, 

43 聚 类 结果 分 析 

针对 某 个 领域 ， 并 不 知道 MaxNum 取 值 多 少 为 最 
佳 , 因此 笔者 对 MaxNum 的 取 值 进 行 多 次 尝试 。 令 
MaxNum={5,10,15,20},， 共 进行 4 次 尝试 , 实验 结果 如 
表 1 所 示 。 

一 个 好 的 聚 类 层次 结构 中 ,整体 的 深度 、 宽 度 以 
及 类 内 节点 数 的 多 少 都 需 较 为 合理 。 笔 者 根据 学 科 领 
域 特点 及 对 聚 类 结果 的 观察 ， 最终 选 定 MaxNum=10。 

聚 类 结果 中 第 1 层次 各 类 别 的 相关 数据 如 表 2 
所 示 。 
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3&1 不 同 MaxNum 取 值 下 的 聚 类 结果 表 2 RRP 1 层 各 类 别 情况 
E Sa ; ROUEN 
指标 icc jd icon urn 顶层 ^ x 类 标签 Hs : * F : ? ii : x ig je 
聚 类 形成 的 总 复数 301 190 143 129 Cl ”版 权 103 5 10 6 21 
第 1 层 簇 数 10 10 10 10 C2 ”安全 87 5 11 4 20 
第 2 JEER 51 51 51 51 C3 ”知识 服务 91 5 10 2 17 
第 3 T TA 118 96 82 68 数 C4 Lib2.0 78 5 7 2 14 
第 4 e 96 33 0 0 a C5 ”存储 77 5 7 3 015 
第 sU z^ A f á " C6 “个 性 化 114 5 14 2 21 
整体 最 小 层次 数 ; 3 ^ 馆 o CT Fh 126 6 13 8 27 
类 内 最 多 术语 数 5 10 15 19 cio 多 媒体 64 5 4 0 9 
类 内 最 少 术语 数 1 1 2 3 合计 - 910 51 96 33 - 
第 1 层 类 “C3_ 知 识 服务 "具体 层次 结构 及 其 包含 的 部 分 术语 如 表 3 所 示 : 
表 3 类 “C3 知识 服务 ”的 层次 结构 及 其 内 容 
第 2 层 第 3 层 第 4 层 第 2 层 第 3 层 第 4 层 第 5 层 
本 体 语义 网 格 
领域 本 体 知识 管理 系统 
知识 共享 数字 化 权 
知识 库 | ZO ULL UM 
知识 组 织 知识 组 织 系统 
人 性 化 服务 
知识 网 络 推送 技术 
信息 环境 语义 互联 
服务 功能 | o Doce 
知识 创新 OWL-S 
知识 经 济 服务 组 合 
运行 机 制 OWL 
规范 控制 本 体 学 习 
知识 获取 
知识 网 格 军队 院 校 图 书馆 
"T 军队 院 校 
集成 服务 人 文 关怀 
网 格 计算 | se 
信息 集成 服务 3G 
移动 服务 泛 在 图 书馆 
可 用 性 泛 在 化 服务 
隐私 保护 泛 在 智能 
言 息 资源 组 织 手机 图 书馆 
信息 服务 模式 手机 
资源 配置 无 线 网 络 
XIANDAI TUSHU QINGBAO JISHU 


| 
L 


F 


RENIE SARER RITA, 不 同 参数 的 设 
定 和 实验 方案 的 设计 会 导致 不 同 的 结果 。 目 前 还 没有 
统一 的 标准 对 聚 类 结果 进行 评价 , 因此 , 本 文通 过 领 
域 专家 对 结果 进行 验证 。 随 机 抽取 了 层次 结构 中 的 10 
个 父 类 及 其 子 类 ,对 聚 类 效果 以 及 类 标签 抽取 的 合理 
性 进行 考察 。 
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针对 抽取 出 来 的 每 一 个 父 类 及 其 子 类 : 查看 子 类 
标签 间 的 关联 关系 , 和 否 大 部 分 的 子 类 标签 间 有 具有 和 较 强 
的 关联 关系 , 则 认为 聚 类 效果 较 好 ; 查看 子 类 标签 与 
父 类 标签 的 关联 关系 ,大 大 部 分 的 子 类 标签 与 父 类 标 
签 有 较 强 关联 关系 , 则 认为 类 标签 的 抽取 较 合 理 。 相 
关 数 据 如 表 4 Bron: 


表 4 唆 类 效果 及 类 标签 抽取 合理 性 检验 


父 类 编号 TT 包含 的 有 关联 关系 的 聚 类 正确 率 (%) 与 父 类 标签 有 关联 的 类 标签 抽取 正确 率 (%) 
子 类 数 Si 子 类 数 SSRi SSR; / S; 子 类 标签 数 SFR: SFRi/Si 
C4 Lib2.0 5 5 100.00 5 100.00 
C3 知识 服务 5 4 80.00 4 80.00 
C4 1 社会 阅读 5 4 80.00 4 80.00 
Cl 4 知识 产权 6 4 66.67 4 66.67 
C3 1 本 体 10 7 70.00 9 90.00 
C5 1 网 站 9 9 100.00 9 100.00 
C8 3 1 数字 图 书馆 建设 7 6 85.71 8 100.00 
C911 资源 组 织 7 5 71.43 7 100.00 
C6 3 4 1 计量 分 析 7 5 71.43 5 71.43 
C7622 数字 图 书馆 评价 7 6 85.71 6 85.71 
合计 ` 68 55 80.88 61 89.71 


由 表 4 数据 可 以 得 出 以 下 结论 : 

(1) 关于 聚 类 效果 。 从 随机 抽取 样本 的 评价 结果 
KA, 大 部 分 的 类 中 成 员 间 关 系 较 紧密 ， 聚 类 正确 率 
均 大 于 等 于 66.67%, 平均 值 达到 80.8896. 这 也 反映 了 
本 研究 所 采用 的 聚 类 方法 能 有 效 针 对 稀 玻 数据 进行 聚 
类 分 析 。 类 “C3_ 知 识 服务 ”包含 的 下 层 5 个 子 类 分 别 为 
“C3_1 本 体 "、“C3_2 知识 网 络 ”"、“C3 3 语义 网 格 ”、 
“C3 5 集成 服务 ”"、“C3 4 3G", 易 知 其 中 的 前 4 个子 
类 间 有 和 较 强 的 关联 关系 ,而 “C3_4_3G” 与 其 他 术语 并 
无 明显 的 关联 关系 ,， 故 排除 在 外 ， 聚 类 正确 率 为 80%。 

(2) 关于 类 标签 抽取 。 在 随机 抽取 的 样本 中 , 大 部 
分 类 的 标签 抽取 较为 合理 , 能 与 类 中 较 多 成 员 产 生 关 
联 。 类 标签 抽取 正确 率 均 大 于 等 于 66.67%, 平均 值 达 
到 89.71%。 类 “C3 知识 服务 ”的 5 个 子 类 中 ,“C3_1_ 
本 体 "“C3_2 知识 网 络 ” “C3_3 语义 网 格 ” 和 “C3_5_ 
集成 服务 ”这 4 个 子 类 的 标签 与 父 类 标签 有 较 强 的 关 
联 关系 ,因此 类 标签 抽取 正确 率 为 80%。 

4.4 5 K-means 聚 类 效果 比较 

采用 K-means 聚 类 方法 对 术语 进行 层次 构建 ,并 

与 BIRCH 算法 进行 比较 , 具体 数据 如 表 5 所 示 。 
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表 5 BIRCH 算法 聚 类 与 K-means 聚 类 结果 比较 


指标 We BIRCH 算法 聚 类 K-means 聚 类 
聚 类 总 复数 190 398 
聚 类 最 深层 次 数 5 18 
类 内 最 少 术 语 数 1 1 
类 内 最 多 术语 数 10 10 
平均 聚 类 正确 率 (%) 80.88 70.39 
平均 类 标签 抽取 正确 率 (%) 89.71 55.59 


对 两 种 聚 类 方法 的 过 程 和 结果 进行 了 比较 分 析 : 

(1) BIRCH 算法 聚 类 在 确定 聚 类 数目 上 有 优势 。 
K-means 聚 类 方法 需要 指定 具体 的 聚 类 数目 , 不 同 的 
聚 类 数目 确定 方案 会 导致 不 同 的 结果 ,因此 ,需要 花 
费时 间 和 精力 制定 合理 的 方案 并 进行 不 断 尝试 。 
BIRCH 算法 聚 类 可 以 在 一 定 的 聚 类 数目 范围 上 根据 
相关 指标 自动 确定 聚 类 数目 。 

(2) BIRCH 算法 聚 类 更 适合 稀 玻 型 数据 。K-means 
聚 类 结果 中 有 大 量 只 含有 一 个 术语 的 类 , 通过 观察 , 有 
些 术语 完全 可 以 并 入 其 他 类 中 , 而 BIRCH 算 法 聚 类 的 结 
果 中 这 种 现象 较 少 。 
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(3) BIRCH 算法 聚 类 结果 的 整体 宽度 和 深度 更 为 
EM, K-means 聚 类 的 总 复数 达到 了 BIRCH 算法 聚 类 
的 两 倍 , 并 且 聚 类 最 深层 次 达到 18,， 这 样 的 聚 类 结构 
不 能 客观 合理 地 反映 术语 的 事实 层次 关系 。 

(4) BIRCH 算法 聚 类 的 有 效 性 高 于 K-means 聚 类 。 
通过 随机 抽取 的 样本 进行 计算 , K-means 聚 类 的 平均 
聚 类 正确 率 是 70.39%, 平均 类 标签 抽取 正确 率 是 
55.59%, [R F BIRCH 算法 聚 类 的 80.88% 和 89.71%。 
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本 文 提出 一 种 从 领域 非 结 构 化 文本 获取 术语 层次 
关系 的 方法 , 该 方法 通过 术语 抽取 、 术 语 向 量 空间 模 
型 构建 、 BIRCH 算法 聚 类 和 聚 类 标签 确定 获取 术语 的 
语义 层次 关系 。 该 方法 利用 术语 词汇 向 量 空间 代替 术 
语文 档 向 量 空 间 ， 从 而 提高 了 空间 的 数据 稠密 度 ， 为 
后 续 BIRCH 聚 类 的 应 用 提供 了 良好 的 数据 基础 。 
BIRCH 肾 类 与 其 他 相关 聚 类 方法 相 比 ,具备 以 下 明显 
优势 : 适合 大 数据 集 的 聚 类 ; 能 诊断 离 群 点 和 噪声 数 
据 ; 能 自动 确定 聚 类 数目 。 本 文 以 数字 图 书馆 领域 为 
例 论 证 了 该 方法 的 可 行 性 和 有 效 性 , 但 也 存在 一 些 缺 
陷 ， 对 于 构建 效果 的 验证 只 是 基于 随机 抽样 进行 ， 且 
仪 与 一 种 其 他 构建 方法 进行 实证 比较 。 在 今后 的 研究 
工作 中 , 笔者 将 进一步 尝试 运用 不 同 的 机 器 学 习 方法 
( 半 ) 自 动 获取 领域 术语 层次 关系 ,探讨 更 有 效 可 行 的 
策略 和 方案 。 
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Abstract: [Objective] Discuss how to obtain the terminology taxonomic relation from Chinese domain unstructured 


text. [Methods] Based on Digital Library domain text from CNKI, construct terminology hierarchy by terminology 


extraction, terminology Vector Space Model construction, BIRCH clustering and cluster tag distribution. [Results] 


Obtain the terminology taxonomic relation of Digital Library domain, and evaluate the effectiveness. The accuracy of 


clustering reaches up to 80.8896, and the accuracy of cluster tag extraction reaches up to 89.71%. [Limitations] 


Evaluate the effectiveness by random sampling, and in comparison with one method only. [Conclusions] Making use of 


BIRCH algorithm to construct terminology taxonomic relation, this algorithm has obvious advantage compared with 


K-means clustering method, and has higher execution and clustering effectiveness. 
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